Las últimas versiones de modelos de lenguaje, como GPT-4o y Gemini 1.5 Pro, se promocionan como "multi-modales", capaces de comprender imágenes y audio además de texto.